查看原文
其他

374名10万+知乎大V(一):相互关注情况

2017-10-26 Deserts_X Python爱好者社区

作者:Deserts_X      

用python爬虫玩点好玩的;用可视化看见不一样的内容。

个人公众号: 牛衣古柳(ID:Deserts-X)

简书:http://www.jianshu.com/u/105b6cd74e7e


一、前言


两个月前,今日头条签约了300多名知乎大V,随后引发广大关注和讨论,具体可见:如何看待今日头条一口气签了 300 多个知乎大 V 的传闻?

https://www.zhihu.com/question/64615426?rf=64617722


现在虽然热度已消逝,但一些困惑依然存在,到底知乎有多少大V(此处以“10万关注为标准”),他们都是谁?彼此的关注情况如何?存不存在亲疏远近,乃至抱团的情况......


正所谓有人的地方就有江湖,挖掘下上述数据,或许能窥见到不一样的知乎大V生态圈。


二、爬虫思路


本回以知乎第一大V张佳玮为种子ID,爬取其关注的85名用户,再依次爬取各自的关注列表,几层下去,获得几十万用户ID及相互关注情况,其中10万以上关注数的共有374人,1万以上关注数的有4139人。下图便是张公子所关注的用户:


继续用RAWGraph 绘制成“跳棋”样:



两个月前也爬取过知乎数据:《爬取张佳玮138w+知乎关注者:数据可视化》,本回发现反爬变得严格多了,此处先不做展开。


三、Gephi绘制关注图谱


获取得到374名知乎大V和25090条关注的数据后,依旧选择用开源网络分析和可视化神器“Gephi”来绘制大V们的关注图谱。


由于此前已用过一次,操作过程基本与上回相同,不再赘述,可按照英文操作一步步进行:


《Gephi绘制微博转发图谱:以“@老婆孩子在天堂”为例》

http://www.jianshu.com/p/cdb215761428


GEPHI – Introduction to Network Analysis and Visualization

http://www.martingrandjean.ch/gephi-introduction/


虽然本次研究从1万+小V的16万条关注情况,聚焦到10万+大V的2.5万条关注情况,但由于总共就374名大V,人均有67条关注,还是有点密集。


运行算法后网络图谱有所分离,但最后的成果图依旧和上次一样不算很满意。闲言少叙,多图预警。


先来个GIF动图,看看大V们在一开始是如何的如胶似漆、厮混作一团的




运行老半天后,图形不再有明显变化:




看到最后成果是这么一团网络也是一口老血吐在上面:



所有的节点情况:



一小部分节点和边,轮子哥@vczh已经出现,求带逛




一步步增加节点和边:




中心区域,关注情况(边的数量)逐渐加重:




一眼看到了在上面的程浩:伯爵在城堡。R.I.P.




底部的还有:



最终的成果图差不多就是这样。由于关注和被关注混在了一起;网络也不够分散,后续可能需要继续筛选出更精华、更少的数据,来绘制更直观的图谱,本次先简单的放放图,具体的解读,可以大家自行进行。还是能看到平时互相点赞的大V确实在图谱里非常靠近的。



另外绘制了七种颜色的图谱,大概是又一次被Gephi搞得吐血,只能填几个色,安慰自己了。逃...就不放图坑流量了。


四、小结


没有分析,没有解读,没有小结,放完图就携小姨子跑了。后面应该还会根据手头的数据写几篇相关文章,大家可以留言对什么感兴趣。

Python爱好者社区历史文章大合集

Python爱好者社区历史文章列表(每周append更新一次)

福利:文末扫码立刻关注公众号,“Python爱好者社区”,开始学习Python课程:

关注后在公众号内回复“课程”即可获取:

1.崔老师爬虫实战案例免费学习视频。

2.丘老师数据科学入门指导免费学习视频。

3.陈老师数据分析报告制作免费学习视频。

4.玩转大数据分析!Spark2.X+Python 精华实战课程免费学习视频。

5.丘老师Python网络爬虫实战免费学习视频。

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存